中位数 - 简单教程与示例

作者:Ruben Geert van den Berg,归属于 统计 A-Z

对于奇数个数值,中位数是所有数值排序后的中间值。对于偶数个数值,中位数是所有数值排序后中间两个数值的平均值。以下来自 这个 Googlesheet (只读) 的示例将使这一点非常清楚。

中位数 - 简单数据示例

中位数示例 Googlesheets
  • V1 包含按升序排序的 1 到 5 的值。中位数 - 中间值 - 是 3。
  • V2 包含按升序排序的 1 到 6 的值。中位数是 3.5。它是中间两个值 3 和 4 的平均值。
  • V3 是 V2,其中 6 被替换为 100。这极大地影响了均值,但中间两个值 - 因此中位数 - 保持不变。
  • V4 包含 V3 的值,顺序随机。除非我们首先对它们进行排序,否则中位数不是中间两个值的平均值。
  • V5 包含重复值:值 1 出现 5 次。由于这些值已排序,因此中位数是中间两个值(1 和 1)的平均值。

请注意,对于 V2 到 V4,中位数是将 50% 最高值与 50% 最低值分开的值。这适用于我们在真实世界数据中找到的大多数(半)连续变量,例如:

  • 以美元为单位的每月确切收入,
  • 以克为单位的体重,或者
  • 以天为单位的年龄。

但是,对于大量重复数据(如 V5)或少量观测值,这可能根本不成立。

中位数与均值的关系

我们稍后将讨论中位数与均值的优缺点。让我们首先看看它们之间的关系。这主要取决于某个变量的频率分布的 偏度 (Skewness):对于对称分布的变量,中位数等于均值,这意味着偏度 = 0。下图说明了这一点。

中位数与均值对称分布

对于这 1,000 个测试分数,偏度基本上为零。样本均值 (M) = 50.8,而中位数 (Me) = 51.0。指示它们在 x 轴上的红线无法区分。当偏度很大时,会出现不同的模式。首先,对于正偏变量,中位数小于均值,如下所示。

中位数与均值右偏分布

这里发生的事情基本上是,一些非常高的分数会影响均值,但不影响中位数。我们已经在最初的示例中看到了这一点:将 {1,2,3,4,5,6} 更改为 {1,2,3,4,5,100} 会极大地影响均值,但两个变量的中位数均为 3.5。上面的直方图显示了完全相同的现象,但它使用了更真实的数据。正如您现在可能猜到的那样,相反的情况也成立:对于负偏变量,中位数大于均值,如下图所示。

中位数与均值左偏分布

这里发生的事情基本上是,非常低的分数“拉低”了均值。但是,中位数不受这些影响。

中位数的优势与劣势

到目前为止,本介绍隐含地指出了中位数与均值相比的一些优势

  • 中位数对 异常值 (Outliers) 不敏感。因此,由于某个亿万富翁的存在,某些人的平均工资可能很高。在这种情况下,我宁愿知道中位数工资。这将告诉我(大致)哪个工资将 50% 最低收入与 50% 最高收入分开。这是这些人倾向于赚取的更现实的估计。
  • 均值仅适用于定量变量。中位数也适用于有序变量 (Ordinal variables)。但是,有序变量通常具有大量的重复值(多次出现的值)。对于此类变量,中位数可能会产生误导,如下所示。

不同分布的有序变量具有相似的中位数

尽管教师 B 的评价比教师 A 好得多,但他们的中位数评价是相同的。

除了这些优势之外,中位数也有一些劣势

  • 中位数不适用于数值计算。例如,可以从均值和样本大小计算总和,但不能从中位数计算总和。两个均值之间的差异很容易解释,但两个中位数之间的差异却很难解释。
  • 在存在重复值的情况下,非常不同的变量可能具有相似的中位数。
  • 中位数可能实际上并不存在。例如,如果两个人有 0 个和 1 个孩子,那么他们的中位数是 0.5 个孩子。
  • 据说中位数在样本之间的波动比均值更大。也就是说,它不太稳定并且具有更大的标准误差。

在 Googlesheets 中查找中位数

使用 Googlesheets 查找中位数非常容易。例如,在任何单元格中键入 =MEDIAN(B2:B7) 将得到单元格 B2 到 B7 的中位数(假设所有非空单元格都包含数字)。此 Googlesheet(只读)中显示了更多示例。

在 SPSS 中查找中位数

SPSS 中,找到中位数的最佳方法是从 A nalyze(分析) SPSS 菜单箭头 C ompare Means(比较均值) SPSS 菜单箭头 M eans(均值) 。使用此对话框创建一个表格,显示各种描述性统计信息,包括均值、标准差、偏度、峰度等。可以选择为由“Independent List(独立列表)”定义的单独组报告这些信息。

SPSS 中通过均值对话框查找中位数

一个更快的选择是键入并运行生成的 语法 (Syntax) - 一个简单的 MEANS 命令 - 例如:

means v1 to v5
/cells count mean median.

下面显示了生成的表格的示例 - 经过一些调整后。

中位数 SPSS 输出表

请注意偏度和(均值 - 中位数)之间的巨大正 相关性 (Correlation):变量的负(左)偏度越大,中位数就越大。对于正(右)偏变量,则出现相反的模式 - 均值大于中位数。这之前已通过一些基于与此表相同的数据文件的直方图进行了说明。

中位数的统计显著性 - 符号检验

最流行的统计技术之一是 t 检验 (t-tests)。这些检验检验两个均值之间的差异是否具有 统计显著性 (Statistical significance)。但是,如果我们想检验中位数而不是均值怎么办?在这种情况下,我们将得到 3 个中位数检验之一,有时称为 符号检验 (sign tests)

单样本中位数符号检验基本上是这样工作的:

  • 每个小于假设中位数的值都替换为减号 (-);
  • 大于假设中位数的值都替换为加号 (+);
  • 如果假设的中位数是正确的,那么所有符号中大约 50% 应该是加号;
  • 二项检验 (Binomial test) 检验样本中加号的比例是否与 0.5 显着不同。

单样本中位数符号检验 - 它如何工作?

其他符号检验遵循相同的基本原理。符号检验不是很流行,因为重复值对它们来说是有问题的,并且它们往往具有较低的 统计功效 (Statistical power)